Python爬虫TLS指纹校验原理底层剖析和绕过模拟浏览器TLS/JA3指纹库curl_cffi

共计 1667 个字符，预计需要花费 5 分钟才能阅读完成。

如果你使用浏览器可以正常访问，但是换成代码访问的话，即使携带相同的参数，也会请求失败，获取到的数据是非正常数据，那么你可能遇到了 TLS 指纹校验。

现在绝大多数的网站都已经使用了 HTTPS（HTTP + SSL/TLS），要建立 HTTPS 链接，服务器和客户端之间首先要进行 TLS/SSL 握手（TLS 是 SSL 3.0 的后继者，现已成为标准），在握手过程中交换双方支持的 TLS 版本，加密算法等信息。

不同客户端之间的差异很大，而且一般这些信息还都是稳定的，所以服务端就可以根据 TLS 的握手信息来作为特征，识别一个请求是普通的用户浏览器访问，还是来自 Python 脚本等的自动化访问。

JA3 是生成 TLS 指纹的一个常用算法。它的工作原理也很简单，大概就是把以上特征拼接生成 MD5。TLS 指纹，也有人叫 JA3 指纹。

知道了 TLS 指纹的原理，那就有了绕过 TLS 指纹校验的大致思路：

修改指纹信息，使生成的 MD5 发生变化
直接模拟浏览器指纹

ja3_hash 就是浏览器的指纹信息。

Wireshark 是非常流行的网络封包分析软件，简称小鲨鱼，功能十分强大。可以截取各种网络封包，显示网络封包的详细信息。

Wireshark 官网：https://www.wireshark.org/

选择要捕获的网卡，接着在过滤栏设置过滤条件进行数据包列表过滤，如筛选目标 IP：ip.dst_host==115.155.81.93。

点击 Info 列显示 Client Hello 所在行这个数据包，找到「Transport Layer Security」点击它，展开再展开，拉到最下边找到 [JA3: bc0f30896620d2820b102005d763d1e5]，就是浏览器的指纹信息 MD5。

[JA3 Fullstring] 分别对应：TLS Version, Cipher Suites, Extensions, supported_groups, ec_point_formats。

直接修改 Client Hello 包 Ciphers 里的值。

import httpx
import ssl

# 创建 SSL 上下文
ssl_context = ssl.create_default_context()
CIPHERS = ":".join(["DH+AES", "RSA+AESGCM", "RSA+AES", "!aNULL", "!eNULL", "!MD5", "!DSS"]
)
ssl_context.set_ciphers(CIPHERS)

url = "https://match.yuanrenxue.cn/api/match/19"
r = httpx.get(url, verify=ssl_context)
print(r.text)

不同 TLS 版本对应的套接字可参考：https://support.huaweicloud.com/bestpractice-waf/waf_06_0012.html

Python 目前只能改 Ciphers 里面的算法套件，来生成非默认的 JA3 指纹，然后骗过检测不太严格的反爬机制。

对于校验更严格的反爬机制，需用到一个第三方库：curl_cffi。（

GitHub 仓库地址：https://github.com/yifeikong/curl_cffi

from curl_cffi import requests

# url = https://ascii2d.net/
# url = https://cn.investing.com/equities/amazon-com-inc-historical-data
url = "https://match.yuanrenxue.cn/api/match/19"
# impersonate 参数指定模拟哪个浏览器
r = requests.get(url, impersonate="chrome101")
print(r.text)

阿伯手记发了：https://aboss.top/moments/1064

吴蛋蛋快发小年快乐

吴蛋蛋 Ask4Me，这个之前看server酱接入了

15220202929 怎么用

八对麻烦大佬更新下【堆新】的友链站名：八对星星描述：极目星视穹苍无界•足履行者大地有疆链接：https://8dui.com图标：https://cf.8dui.com/logo.webp横标：https://cf.8dui.com/logo-w.webp订阅：https://8dui.com/rss.xml

三毛笔记已添加

DUINEW 已添加贵站，期待贵站友链~博客名称：堆新博客地址：https://duinew.com/博客描述：堆新堆新,引力向新！——堆新（DUINEW）博客头像：https://d.duinew.com/logo.webp横版头像：https://d.duinew.com/logo-w.webp博客订阅：https://duinew.com/rss.xml